谷歌的Astra、Veo和Gemini升級戰:AI技術的進步
這是谷歌對OpenAI的回應。
一個通用的AI,一個可以真正日常使用的AI,如果現在不是這樣的話,召開新聞發布會會感到尷尬。
在5月15日的清晨,年度“科技界春晚”谷歌I/O開發者大會正式開始。在110分鐘的主題演講中,人工智能被提及了多少次?谷歌已經統計過了:
是的,AI每分鐘都在被討論。
生成式AI的競爭最近達到了新高潮,此次I/O大會的內容自然圍繞著人工智能。
“一年前在這個舞台上,我們首次分享了我們對原生多模態大型模型Gemini的計劃。這標誌著新一代I/O的開始,”谷歌CEO桑達爾·皮查伊說。“今天,我們希望每個人都能受益於Gemini的技術。這些突破性的功能將滲透到搜索、圖像、生產力工具、Android系統等多個方面。”
目前,1.5 Pro和1.5 Flash已經公開預覽,並在谷歌AI工作室和Vertex AI中提供1百萬token的上下文窗口。現在,1.5 Pro還為使用API的開發者和通過候補名單的谷歌雲客戶提供2百萬token的上下文窗口。
此外,Gemini Nano已經從純文本輸入擴展到圖像輸入。今年晚些時候,谷歌將推出多模態Gemini Nano,從Pixel開始。這意味著移動用戶不僅可以處理文本輸入,還可以理解更多上下文信息,例如視覺、聲音和口語。
Gemini家族迎來了一位新成員:Gemini 1.5 Flash
新版本1.5 Flash已經針對速度和效率進行了優化。
新一代開源大型模型Gemma 2
今天,谷歌還發布了一系列對開源大型模型Gemma的更新——Gemma 2來了。
如介紹所述,Gemma 2採用了新的架構,旨在實現突破性的性能和效率,新的開源模型參數為27B。
在長視頻方面,Veo可以生成60秒甚至更長的視頻。它可以通過單個提示或提供一系列共同講述故事的提示來實現。這對於視頻生成模型在電影和電視製作中的應用至關重要。
Veo基於谷歌在視覺內容生成方面的工作,包括生成查詢網絡(GQN)、DVD-GAN、圖像到視頻、Phenaki、WALT、VideoPoet、Lumiere等。